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摘要 : [目的 /意义 ] 分 析 技 术 主 题 演化 过 程 可 以 梳理 技术 发 展 脉络 ,对 于 发 展 创 新 、 预 测 技术 发 展 趋 势 具 
有 重要 意义 ,但 是 从 语义 角度 分 析 技 术 主 题 演化 轨迹 的 研究 较 少 。 因 此 ,从 语义 的 角度 出 发 ,分 析 技 术 主 题 演 
化 过 程 。[ 方 法 /过 程 ] 提 出 基于 非 负 算 阵 分 解 的 改进 的 动态 非 负 和 珑 阵 分 解 模 型 对 专利 文本 进行 动态 主题 建 模 ， 
并 利用 TextRank 算法 抽取 名 词 短 语 进 行 标注 ,增强 所 抽取 技术 主题 的 可 解释 性 。 在 此 基础 上 ,利用 词 向 量 的 方 
式 计算 技术 演化 轨迹 ,并 进行 可 视 化 展示 。[ 结果 /结论 ] 对 2002 年 .2005 年 .2008 年 .2011 年 和 2014 年 的 五 方 
专利 进行 实证 分 析 , 识 别 出 65 个 技术 主题 及 其 演化 轨迹 ,表明 方法 的 可 行 性 。 

关键 词 : 技术 主题 演化 dBEAABERAIMAT ”主题 模型 ”动态 主题 分 析 
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现代 社会 技术 的 发 展 日 新 月 异 ,产业 间 的 技术 流 
动 -技术 合作 以 及 不 同 产 业 间 的 技术 交融 不 断 增 强 , 技 
术 关 联 愈 发 紧密 ,一 个 产业 的 技术 进步 与 其 它 产业 的 
乒 油 变化 息息相关 "”。 作 为 社会 创新 的 主体 ,企业 
必须 面临 通过 不 断 地 创新 以 持续 研发 新 产品 的 挑战 。 
因 间 ,技术 的 复杂 性 与 多 样 性 与 日 俱 增 ,技术 创新 的 步 
伐 如 快 ,强度 提升 ,技术 发 展 过 程 中 的 不 确定 性 也 在 不 
断 增 强 5 。 技 术 主 题 分 析 是 专利 情报 分 析 的 重要 内 
容 5 生 要 分 为 技术 主题 分 布 和 技术 主题 演化 分 析 两 个 
方面 ,其 中 技术 主题 分 布 侧 重 于 技术 主题 的 静态 特征 ， 
技术 主题 演化 分 析 内 涵 较 为 丰富 ,包含 技术 主题 演变 
过 程 分 析 、 技 术 发 展 趋势 预测 和 新 兴 技术 主题 发 现 等 
WU. 。 理 解 技术 主题 演化 机 制 对 于 发 展 创 新 具有 重 
要 意义 。 

专利 作为 技术 法律 以 及 商业 信息 的 载体 ,是 技术 
主题 演化 研究 的 重要 数据 资源 。 日 益 增 长 的 专利 数量 
和 日 益 复 杂 的 技术 给 技术 主题 演变 分 析 带 来 了 巨大 的 
挑战 。 随 着 文本 挖掘 语义 分 析 技 术 的 发 展 ,主题 模型 
(AN LDA NMF 等 ) 在 众多 领域 (如 社交 媒体 、 科 学 文献 
等 ) 得 到 了 广泛 .成 熟 的 应 用 , 极 大 地 提高 了 人 们 挖掘、 
理解 非 结 构 化 文本 数据 语义 信息 的 效率 ,这 也 为 技术 
主题 演变 分 析 研 究 提供 了 一 种 有 价值 的 思路 , 即 从 专 
利 的 文本 内 容 分 析 技 术 主 题 演 变 的 动态 过 程 。 本 文 从 


非 结 构 化 文本 数据 的 角度 ,基于 非 负 和 矩阵 分 解 ( NMF ) 

是 出 改进 的 动态 非 负 和 矩阵 分 解 的 方法 ,将 专利 文本 划 
分 为 不 同 的 时 间 窗 口 并 抽取 窗口 主题 ,再 基于 窗口 主 
题 抽 取 动 态 主题 ,以 探究 技术 主题 的 动态 演变 过 程 。 


专利 是 技术 主题 演化 研究 的 主要 数据 来 源 , 本 文 
根据 现 有 研究 对 专利 信息 的 利用 方式 的 不 同 ,将 技术 
主题 演变 研究 分 为 三 类 :基于 专利 分 类 的 分 析 方法 、 基 
于 专利 引文 的 分 析 方法 和 基于 专利 文本 内 容 的 分 析 方 
法 。 

专利 分 类 是 根据 专利 揭示 的 技术 内 容 所 提供 的 一 
种 简易 和 通用 的 技术 分 类 系统 。 基 于 专利 分 类 号 的 
技术 主题 分 析 主 要 有 统计 分 析 和 共 分 类 分 析 。 专 利 共 
分 类 是 指 不 同 的 专利 分 类 号 码 (如 IPC) 在 同一 件 专利 
中 共 现 ,表明 不 同 的 技术 方向 之 间 存 在 一 定 的 联系 ,可 
以 基于 这 种 联系 分 析 技 术 主 题 。K.， Suzuki 等 “采用 
专利 IPC 分 类 号 共 现 的 方法 来 研究 技术 发 展 中 的 融 
£t. S. Jeong 等 "通过 Jaccard 系数 来 研究 IPC 共 现 关 
系 的 强 弱 ,并 分 析 了 共 现 网 络 的 密度 等 特征 ,以 分 析 不 
同 技术 主题 随时 间 的 变化 及 技术 融合 的 主要 类 型 。 
W. S. Lee 等 ”对 IPC 的 共 现 网 络 进行 链 路 预测 (link 
prediction) 分 析 以 预测 未 来 可 能 产生 的 新 兴 技 术 主 题 ， 
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并 利用 主题 分 析 抽 取 关键 词 来 识别 未 来 可 能 的 新 兴 领 
Wo B. Huang 等 利用 关联 规则 分 析 的 方法 对 信息 
技术 和 生物 技术 两 大 技术 领域 的 IPC 共 现 进行 了 分 
析 , 从 支持 度 (support) ,置信 度 (confidence) 和 提升 度 
Cift) 三 个 方面 分 析 了 技术 主题 的 特征 。 
基于 专利 引文 的 分 析 方法 对 不 同 专利 文献 之 间 以 
及 专利 文献 与 科学 文献 之 间 的 引用 关系 进行 分 析 ""。 
引用 关系 反映 了 技术 的 流动 ,通过 构建 引用 关系 网 络 ， 
可 以 分 析 技 术 主题 演变 的 轨迹 。P. L. Chang 4A 
以 专利 引用 关系 为 基础 ,结合 层次 聚 类 和 非 层 次 聚 类 
方法 ,将 目标 领域 专利 聚 成 三 个 类 复 D p T DIR HE 
技术 主题 ,并 构建 了 每 个 类 艇 内 部 技术 之 间 关 系 的 网 
络 图 。C，Choi 等 人 "提出 一 种 基于 专利 引用 网 络 的 
乒 术 分 析 方法 ,可 以 识别 技术 主题 演化 路 径 。Y，GE- 
UMS ”入 东升 等 “ 则 根据 技术 类别 之 间 引用 网 络 
的 知识 流 来 分 析 技 术 融 合 。 除 基于 直接 引用 关系 的 专 
售 | 文 网 络 外 ,还 有 以 共 被 引 关系 和 引文 看 合 关系 作 
汶 蝎 利 的 技术 主题 相似 度 构 建 的 专利 网 络 "9 。 总 
WS, 当前 基于 专利 引文 的 技术 主题 分 析 方法 主要 
DK : 基 于 专利 引文 关系 进行 聚 类 操作 ,并 进 一 
步 结 析 技术 主题 的 演化 情况 ”25 79 ;通过 识别 专利 引 
交 网 络 中 的 知识 流动 主 路 径 以 绘制 技术 主题 演化 轨 
还 ;= 9 ;采用 社会 网 络 分 析 的 方法 来 评价 技术 主题 演 
WRR”, 
>< 基 于 专利 分 类 和 专利 引文 的 技术 主题 演化 分 析 方 
法 钳 然 能 从 宏观 角度 发 现 技术 发 展 趋势 ,但 无 法 展现 
技术 主题 的 具体 演变 细节 。 基 于 专利 文本 的 分 析 弥 补 
上 一 不 足 , 挖 据 专 利文 本 中 隐藏 的 信息 逐渐 成 为 技 
术 主 题 演化 分 析 的 主要 手段 之 一 5。 当前 基于 专利 
文本 的 技术 主题 分 析 主 要 有 词 频 分 析 法 和 关键 词 共 现 
分 析 等 。 栾 春 娟 ”基于 主题 词 共 现 分 析 方 法 和 社会 
网 络 分 析 方 法 ,绘制 太阳 能 技术 领域 共 现 网 络 的 演进 
过 程 。 韩 红旗 等 “提出 专利 技术 特征 词 共 现 的 战略 
图 分 析 方 法 研究 技术 主题 的 演化 情况 。S.H. Chen 
等 55 对 不 同时 间 窗 口 的 专利 文本 进行 聚 类 ,结合 专利 
引用 网 络 分 析 技术 主题 的 演化 过 程 。 
本 文 从 语义 的 角度 出 发 ,提出 基于 NMF 的 改进 模 
型 ,以 实现 技术 主题 演变 分 析 。NMF 是 一 种 将 非 负 算 
阵 分 解 . 降 维 为 非 负 因子 的 无 监督 方法 ,被 广泛 应 用 于 
E Ub FRU 文本 语 料 潜在 主题 的 抽取 ”等 领域 。 将 
NMF 直接 用 于 主题 建 模 是 静态 的 ,无 法 反映 所 抽取 的 
主题 在 时 间 尺 度 上 的 演变 情况 。 本 文 基于 NMF 提出 
一 种 改进 的 动态 非 负 和 矩阵 分 解 (Dynamic NMF) 的 方 


— 


法 ,首先 将 专利 文本 划分 为 不 同 的 时 间 窗 口 ,分 别 对 每 
个 时 间 窗 口 的 专利 文本 利用 NMF 进行 主题 建 模 , 得 到 
窗口 主题 模型 ,然后 基于 窗口 主题 模型 再 次 利用 NMF 
进行 主题 建 模 ,得 到 动态 主题 模型 ,最 终 以 反映 动态 主 
题 在 不 同时 间 窗 口 的 演变 情况 ,从 语义 的 角度 揭示 技 
术 主 题 的 动态 演变 特征 。 


本 文 提出 的 总 体 研 究 框架 如 图 1 所 示 ,主要 分 为 
四 个 步 又 :中 对 抽取 的 专利 文本 数据 训练 词 向 量 , 得 到 
的 词 向 量 用 于 后 续 的 主题 一 致 性 评价 和 主题 相似 度 的 
计算 ;@ 对 抽取 的 专利 文本 数据 利用 动态 NMF 进行 动 
态 主题 建 模 ,得 到 动态 主题 和 窗口 主题 ,其 中 主题 个 数 
的 确定 是 利用 基于 词 向 量 的 主题 一 致 性 评价 指标 ;@) 
通过 TextRank 算法 抽取 的 名 词 短语 对 抽取 的 主题 进 
行 短语 标注 ,增强 主题 的 可 解释 性 ;由 计算 主题 相似 
BE ,识别 技术 主题 演变 轨迹 。 下 文 将 对 框架 中 的 重要 
步骤 进行 介绍 。 


TEE 


窗口 主题 和 动态 主题 


ese Texank 短语 标注 


图 1 研究 总 体 框架 


2.1 非 负 和 矩阵 分 解 (NME ) 

给 定 包 含 n 篇 文档 的 语料库 ,首先 构建 文档 - 词 
JERE A eR ” ,其 中 ,m 表示 语料库 词 表 的 长 度 。 对 矩 
阵 4 进行 NMF ,结果 产生 此 秩 (rank ) 的 降 维 近 似 , 这 种 
近似 是 两 个 非 负 因子 乘积 的 形式 , 即 4 二 WH。NMF 的 
目标 是 最 小 化 4 与 WH 之 间 的 重 构 误差 (reconstruction 
error) 。 因 子 He R”*" 的 行 可 以 解释 为 k 个 主题 (top- 
ic) ,每 个 主题 定义 为 词 表 中 m 个 词 的 非 负 权 重 。 对 每 
一 行 按照 词 的 权重 进行 排序 , 即 可 得 到 每 个 主题 的 top 
n AER. HRE We RARR n 篇 文档 对 于 每 个 
主题 的 权重 ,基于 此 可 以 将 文档 与 对 应 的 主题 联系 起 
来 。NMF 算法 通常 以 随机 因子 进行 初始 化 ,导致 算法 
收敛 于 不 同 的 局 部 最 优 ,进而 导致 算法 结果 的 不 稳定 
性 。 本 文 使 用 非 负 双 重 奇异 值 分 解 (NNDSVD) ” 生 
成 初始 化 因子 ,以 提升 所 抽取 主题 的 质量 。 

此 外 ,主题 模型 中 一 个 关键 的 参数 就 是 主题 个 数 
,直接 决定 了 主题 抽取 的 结果 。% 值 过 小 , 则 抽取 的 主 
题 过 于 宽泛 ;k 值 过 大 ,将 导致 过 多 的 、 高 相似 度 的 主 
题 。J. Chang 等 .将 主题 一 致 性 (topic coherence ) 用 
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题 中 的 词 是 相关 的 ,并 通过 这 种 相关 性 来 评价 主题 的 
质量 。D. O’ Callaghan 等 提出 基于 Word2 Vec 的 主 


题 一 致 性 评价 方法 (Topic Coherence via Word2 Vec, TC- 


W2V) ,该 方法 通过 评价 主题 top n 词 的 相关 性 来 评价 
总 体 主题 的 一 致 性 。 具 体 来 讲 , TC - W2V 通过 
Word2Vec "来 计算 词 表 中 词 的 向 量 表示 ,然后 通过 余 
弦 相 似 度 计算 同一 主题 中 词 对 之 间 的 相关 性 。 通 常 ， 


长 度 的 时 间 窗 口中 。 关 于 时 间 窗 口 的 划分 ,主要 有 重 
看 时 间 窗 口 划 分 和 非 重 至 时 间 窗 口 划分 两 种 形 
式 。 重 铸 时 间 窗 口 划 分 的 方式 容易 忽略 一 些 存在 周期 
较 短 的 主题 ,也 忽略 了 主题 在 每 个 时 间 点 的 状态 。 本 
文采 用 非 重 琶 的 方式 将 专利 文档 划分 到 r 个 时 间 窗 口 
1 中 ,对 每 一 个 时 间 窗 口 T, 应 用 NMF ,产生 
包含 个 窗口 主题 ( window topic) 的 窗口 主题 模型 
M, Kop AC, 由 式 (2) 确 定 。 第 一 层 产生 了 连续 的 


主题 中 词 之 间 的 相似 度 越 高 , 则 主题 的 语义 一 致 性 就 
越 高 。 本 文 利 用 TC-W2V 确定 上 值 ,如 式 (1) 和 (2) 所 
示 , 每 个 主题 由 前 i 个 词 表示 ,对 于 单个 主题 ,一致 性 
为 前 i 个 词 两 两 之 间 余 弦 相 似 度 的 均值 ,其 中 词 的 向 
量 表示 由 Word2Vec 计算 获得 : 


V coh (t,) = PME > COS (wv; ,wv,) (1) 


2 
对 于 由 个 主题 构成 的 主题 模型 7, 总 体 的 一 致 
性 得 分 由 每 个 主题 一 致 性 的 均值 给 出 : 


"coh ( T) = 二 py coh( t, ) (2) 


Qu 3hzs3E f 4B pe f 
dE E UE fS 1 E EU AE HE PE AH 
来 讲 , 对 于 具有 时 序 特征 的 专利 文本 ( 比如 以 年 为 
) ,本 文 首先 利用 非 负 矩阵 分 解 对 每 个 固定 时 间 窗 
口 揭 专利 文本 进行 主题 建 模 ,然后 将 抽取 的 主题 视 为 
文 瑟 , 再 次 利用 非 负 矩 阵 分 解 对 每 个 时 间 窗 口 的 输出 
结果 进行 主题 建 模 ,以 抽取 所 有 时 间 窗 口 的 专利 文本 
中 所 蕴含 的 动态 技术 主题 。 动 态 非 负 和 矩阵 分 解 的 过 程 


如 图 2 所 示 : 
bs 1l, Topic 2, m= T: | 
k 
E 
E opic 1, Topic Topic 1, m] Topic 1, iow 
UT kl Ed k2, um Uv kt 
[. mm | 
time 1 time 2 timet 


图 2 zd SEA 
第 一 层面 对 时 序数 据 ,首先 要 将 数据 划分 到 固定 
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窗口 主题 模型 14 uM. 

第 二 层 对 于 每 个 窗口 主题 模型 中 的 因子 也 ,将 也 
HÍT k 个 窗口 主题 ) 看 成 是 主题 文档 ( 主题 是 用 词 
表示 的 ,因此 也 可 看 作 是 文档 ) , 即 可 构建 原始 语 料 的 
压缩 表示 。 主 题 - 词 矩 阵 B 的 构建 方式 如 下 :中 构建 
FIERE ;对 每 个 窗口 主题 模型 M, XEM, 中 的 每 个 
窗口 主题 ,从 对 应 的 NMF 因子 H, 的 行 向 量 中 选择 前 t 
个 词 ,将 其 它 词 的 权重 置 为 0, 将 此 向 量 作为 新 行 添加 
到 如 中 ;人 所 有 窗口 主题 模型 中 的 主题 添加 完成 之 后 ， 
MER B 中 全 为 0 的 列 (未 曾 在 任何 窗口 主题 前 t 个 词 
中 出 现 过 的 词 )。 

和 矩阵 BB 的 大 小 为 n' xm', 其 中 n= EL, k 是 主题 
文档 的 数量 ,m’<m 是 上 述 步骤 3 余下 的 词 的 子 集 。 
保留 主题 文档 中 的 前 上 个 词 实际 上 利用 了 每 个 时 间 窗 
口中 有 代表 性 的 词 ,并 且 排 除了 每 个 窗口 主题 中 的 低 
意义 词 ,最 终 降 低 第 二 次 因子 分 解 过 程 的 计算 代价 。 
对 和 矩阵 B 进行 第 二 层 NMF 抽取 大 个 动态 主题 ( dynam- 
ic topic) ,每 个 动态 主题 都 会 与 多 个 时 间 窗 口 联系 起 
3k. ABE B 的 分 解 过 程 与 矩阵 4 的 分 解 过 程 一 样 ,TW 
-W2V 一 致 性 度量 用 来 确定 参数 和 的 值 。 分 解 的 结果 
Be UV 可 以 解释 为 :因子 V 每 一 行 的 top n 词 用 来 表示 
动态 主题 ;因子 U 的 列 值 表 示 每 个 窗口 主题 与 每 个 动 
态 主 题 的 相关 程度 。 

将 动态 主题 与 窗口 主题 联系 起 来 能 够 追踪 主题 随 
时 间 的 演变 。 首 先 ,基于 因子 U 每 一 行 的 值 ,将 每 一 个 
窗口 主题 与 其 所 属 权 重 最 大 的 动态 主题 进行 关联 。 同 
理 ,可 将 专利 文档 与 窗口 主题 进行 关联 ,进而 将 动态 主 
题 与 专利 文档 关联 起 来 。 两 层 NMF 主题 模型 过 程 的 
输出 结果 包含 :Dr 个 窗口 主题 模型 ,每 个 窗口 主题 模 
型 包含 有 ,个 窗口 主题 ,每 个 窗口 主题 有 一 组 与 之 关联 的 
文档 , 旦 用 前 1 个 词 表 示 ;@@K 个 动态 主题 ,每 个 动态 主 
题 与 一 组 窗口 主题 关联 ,并 且 有 一 组 与 之 关联 的 文档 。 


当前 技术 主题 演化 研究 多 集中 于 某 个 技术 领 
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域 …* ,缺乏 对 全 领域 的 研究 。 五 方 专利 是 指 同 时 
在 中 美 欧 日 韩 五 国 申请 授权 的 专利 ,一 般 专 利 质量 较 
高 ,覆盖 的 技术 领域 较为 广泛 ,具有 代表 性 。 本 文 使 用 
德 温 特 专利 数据 库 作 为 专利 信息 的 数据 源 , 检索 
2002 .2005 .2008 .2011 及 2014 年 五 个 年 份 的 五 方 专利 
数据 ,五 年 数据 分 别 为 16 500 2& 25 221 2& 25 866 条 、 
24 184 4& 20 947 条 ,共计 112 718 条 记录 ,如 图 3 所 
示 。 检 索 时 间 为 2016 年 10 月 28 日 。 
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3 专利 数量 统计 


p< 


CO 本 文 按照 年 份 将 数据 集 划分 为 五 个 时 间 窗口 ,对 


vu 


每 ZB 时 间 窗 口 7,, 按 如 下 方式 构建 文档 - WERE A, «CD 


«Shi 4 RBS S] (stop words) ,其 中 , 停 用 词 表 的 构 
建明 于 人 德 温 特 专利 记录 的 特点 ,添加 了 如 “advantage”、 
“deription" 等 词 ,共计 831 个 停 用 词 ;@ 低 频 词 往往 
不 其 备 足够 的 代表 性 ,而 高 频 词 所 表征 的 意义 又 过 于 
宽 汤 ,因此 为 平衡 所 抽取 主题 的 区 分 度 和 涵盖 的 范围 ， 
本 文 去 除了 词 频 小 于 20 的 低频 词 以 及 在 超过 60% 的 
文档 中 出 现 的 高 频 词 ;@ 构 建文 档 - 词 矩 阵 A_i, 并 计 
算 TF-IDF 权重 。 

处 理 结果 显示 五 个 时 间 窗 口 分 别 包含 5 107、 
6 414,7 028,6 627 .6 481 个 词 项 。 


4 ”结果 与 分 析 


4.1 确定 主题 数目 

如 上 文 所 述 , 本 文 利用 主题 一 致 性 指标 TC-W2V 
自动 确定 人 值 。 首 先 利用 全 部 的 专利 文本 数据 训练 
Word2Vec ,每 个 主题 的 前 20 个 词 用 来 计算 TC-W2V 
值 。 在 每 个 时 间 窗 口 ,在 兼顾 程序 运行 效率 的 情况 下 ， 
设 定 主题 个 数 的 取 值 范围 he [80,180] , 步 长 为 5, 生 
成 不 同 主题 个 数 的 窗口 主题 模型 ,确定 最 优 的 值 , 即 
主题 一 致 性 TC-W2V 最 高 的 上 值 。 图 4 展示 了 2014 年 


不 同 值 窗口 主题 模型 的 TC-W2V 得 分 ,k=110 时 TC 
-W2V 取得 最 大 值 。 同 理 ,2002 .2005 ,2008 ,2011 四 个 
时 间 窗 口 的 最 优 值 分 别 为 105 、120、100、110。 动 态 
主题 模型 主题 个 数 的 取 值 范围 设 定 为 ke [50,150], 
步 长 为 5 ,最 优 k 值 为 65。 本 文 共 抽 取 动 态 主 题 65 个 ， 
分 别 用 D01 ,D02,… ,D65 表示 ,窗口 主题 545 个 ,分 别 
“年 份 + 主题 序号 ”表示 ,如 2002_01,2002_02,…， 
2014 110, 
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图 4 2014 年 主题 一 致 性 TC-W2V 


4.2 技术 主题 演化 分 析 
本 文通 过 提出 的 动态 非 负 和 矩 阵 分 解 模型 抽取 出 
65 个 动态 主题 ,为 进一步 分 析 这 些 技术 主题 的 演化 过 
程 , 利 用 主题 强度 和 技术 融合 度 两 个 指标 作为 筛选 标 
准 。 其 中 ,主题 强度 是 指 与 该 主题 关联 的 专利 的 数量 ， 
技术 融合 度量 方式 有 多 种 ,不 同 度量 方式 从 不 同 角 度 
揭示 了 技术 融合 的 不 同 特 征 ”。 粹 通过 度量 一 个 技 
术 方 向 在 不 同 技术 类 别 上 的 分 布 情况 来 度量 技术 融合 
E,W E. J. Han 和 S. Y. Sohn?" [4X Y. Cho 和 M. 
Kim "等 将 专利 分 类 信息 (IPC) Hi ( entropy ) 用 来 度 
量 某 一 技术 主题 的 技术 融合 度 ,本 文 也 沿用 这 一 做 法 。 
具体 来 说 ,本 文 将 识别 的 技术 主题 与 专利 联系 起 来 
(将 每 件 专 利 与 其 对 应 权重 最 大 的 主题 进行 关联 ) ， 
进而 将 识别 的 技术 主题 与 专利 所 包含 的 分 类 信息 
(IPC) 关 联 起 来 ,得 到 与 该 技术 主题 关联 的 IPC. 的 频 
次 分 布 信息 。 基 于 该 技术 主题 的 IPC 分 布 信息 , 即 可 
计算 焙 。 本 文通 过 统计 4 位 IPC 来 度量 技术 融合 度 ， 
如 式 (3) 所 示 , 其 中 P(x%) 表 示 某 一 技术 类 别 (4 位 
IPC) 出 现 的 频率 : 
H(X) = ->,P(x,)log(P(x,)) (3) 
本 文 所 识别 的 65 个 动态 主题 的 主题 强度 和 技术 
融合 度 如 表 1 所 示 ,为 进一步 分 析 所 识别 技术 主题 的 
演化 过 程 ,以 主题 强度 和 技术 融合 度 都 较 高 的 动态 
主题 D64 和 D59 为 例 ,分 析 技术 主题 演化 过 程 。 


97 


图 二 情报 三 作 
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技术 融合 度 主题 强度 动态 主题 技术 融合 度 主题 强度 技术 融合 度 主题 强度 
D59 5.38 8 542 D12 4.52 441 D20 3.59 761 
D64 5.34 5337 D44 4.52 852 D38 3.58 607 
D54 5.33 4 822 D28 4.48 604 D07 3.53 5884 
D24 5.277 959 D52 4.47 738 D45 3.53 1 089 
D43 5.27 758 D10 4.42 2 633 D36 3.46 574 
D19 5.19 632 D25 4.41 3511 D30 3.46 1630 
D23 5.16 1 943 D14 4.40 1 007 D15 3.39 94 
D18 5.16 893 D27 4.33 731 D55 3.34 3 887 
D33 5.04 654 D48 4.29 613 D35 3.34 437 
D47 4.95 3 789 D16 4.23 954 D60 3.29 4 041 
D31 4.90 739 D53 4.12 664 D34 3.27 610 
D63 4.84 2 567 D06 4.08 1 434 D29 3.25 177 
D21 4.82 528 D46 4.06 927 D13 3.25 708 
4.79 1291 D26 4.05 1 059 D49 3.22 1 265 
4.74 2455 D22 4.05 644 D50 3.11 1077 
4.72 1 443 D42 4.04 1 885 D11 3.04 2716 
4.71 2 408 D39 3.98 425 D04 3.01 6 979 
4.69 710 D41 3.94 1 528 D09 2.82 609 
4.64 1 850 D56 3.94 2 278 D03 2.72 760 
4.56 940 D08 3.90 1 916 D51 2.56 682 
4.53 740 D62 3.76 1 133 D17 2:52 893 
4.53 3919 D05 3.72 1 748 
主题 模型 生成 的 主题 通常 用 与 主题 最 相关 的 top ”相关 的 前 20 个 词 , Text Rank 对 应 的 主题 内 容 表 示 由 


n 词 表 示 ””” 。 然 而 词 的 意义 较为 宽泛 ,与 之 相 比 ， 


短语 的 语义 表达 更 加 完整 精确 ,万 


对 于 专利 文档 中 


的 按 术 术语 而 言 。 主 题 标 注 (topic labeling) 则 有 助 于 


理解 主题 的 含义 “ ” 。 本 文 利用 TextRank ^ 算 
; NMF 生成 的 主题 进行 短语 标注 。TextRank 计算 


每 次 词 的 重要 性 ,如 果 文档 中 两 个 相 邻 的 词 都 是 重要 


的 则 构成 短语 。 昨 
名 词 短 语 。 


了结 合 词 特 


E 标 注 进行 句法 过 滤 , 即 得 


动态 主题 D64 和 D59 如 表 2 所 示 , 其 中 NMF 对 应 
的 主题 内 容 表 示 由 NMF 主题 模型 生成 的 与 该 主题 最 
表 2 动态 主题 D64 和 D59 


主题 内 容 


TextRank 算法 抽取 的 名 词 短语 所 标注 的 内 容 。 通 过 两 
者 的 对 比 可 以 看 出 ,虽然 NMF 直接 生成 的 主题 词 已 经 
能 够 较为 清晰 地 表达 该 主题 的 内 容 , 但 基于 单词 的 表 
达 仍 显得 较为 宽泛 ,使 得 主题 蕴含 的 语义 不 够 完整 LUE 
确 。 名 词 短语 则 使 得 主题 所 蕴含 的 语义 表达 的 更 为 清 
晰 \ 准 确 和 完整 。 为 进一步 挖 气 所 抽取 技术 主题 表达 
的 内 容 , 笔 者 抽取 与 该 主题 最 相关 的 几 篇 专利 ,用 来 畏 
助 主题 语义 内 涵 的 理解 。 容 易 看 出 ,动态 主题 D64 所 
表达 的 内 涵 是 汽车 生产 与 制造 相关 的 技术 ,动态 主题 
D59 所 表达 的 是 电气 设备 相关 技术 。 


mr 


D59 NMF 


TextRank 


D64 NMF 


TextRank 
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section; housing; connector; contact; assembly; end; electrical; body; connection; cable; conductive; mod- 


ule; member; tube; plug; wall; conductor; connecting; board; structure 


four-line wire structure; layer comprises polyamide; evaporating device; high -friction section; erected portion; 


process fluid forms; use nozzle; includes link; olap cube determination module ; provide directional ; ground ma- 


terial; separate large-scale surface; body performance; tomogram selection unit; end flaps; nuclear industry ; 


superconductor layers; cross-sectional microscopic structure; structure; comprises 


magnetic; vehicle; motor; shaft; drive; coil; rotor; magnet; wheel; electric; gear; core; field; stator; bear- 


ing; speed; permanent; rotation; engine; machine 


汽车 生产 与 制造 相关 技术 


vehicle vision; magnet unit; magnetic radial bearings surround ; cathode layer comprises ; outer surface portion ; 


vertical seal device; motor car; use hybrid operating; drive connector; includes variable -pitch; monomeric 


forms; controls displacement range; rotatory shaft; provides makeup; second vehicle; vehicle; aramid fiber ma- 


terial ; hydrodynamic elements; unit 
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4.2.1 技术 主题 演化 定量 分 析 动态 主题 D59“ 电 
设备 相关 技术 ”和 D64“ 汽 车 生产 与 制造 相关 技术 ”的 
专利 数量 随时 间 的 演化 如 图 5 所 示 , 专 利 数量 越 多 , 表 
明 该 技术 越 热 门 . 越 重要 。 从 图 5 可 以 看 出 ,在 2002 
EFJ 2011 年 之 间 ,“ 汽 车 生产 与 制造 相关 技术 ”的 专利 
数量 不 断 增加 ,表明 该 技术 在 这 一 时 间 段 内 得 到 了 快 
速 的 发 展 ,而 在 2014 年 ,该 技术 领域 相关 的 专利 数量 
出 现 急剧 下 滑 的 趋势 ,表明 该 技术 领域 由 快速 发 展 阶 
段 进入 平稳 发 展 的 阶段 。 根 据 图 3 所 有 五 方 专利 数量 
的 统计 ,在 2014 年 总 体 五 方 专利 数量 也 有 下 滑 的 趋 
势 ,所 以 从 另 一 个 角度 来 看 ,汽车 动力 与 制造 相关 技术 
专利 数量 的 下 滑 也 有 可 能 是 受到 总 体 五 方 专利 数量 下 
滑 的 影响 。 在 2002 年 到 2005 年 之 间 ,“ 电 气 设备 相关 
捷 术 "专利 数量 增长 迅速 ,之 后 趋 于 平稳 状态 ,表明 技 
AERE E ACER TT ER. 


S SS 
JT BN 


* 


A 


E 


Ep 
=E D5 =t D64 


N 
e 2002 2005 2008 2011 2014 
CN 

m m 


Ss 图 5 技术 主题 专利 数量 随时 间 的 演化 


4. 完 。 技术 主题 演化 内 容 分 析 “基于 NMF 的 动态 主 
题 穷 析 技 术 不 仅 能 够 揭示 文档 集 丝 合 的 内 容 ,而 且 能 
够 渴 示 动态 主题 在 不 同时 间 窗 口 的 演变 情况 。 本 文 利 
用 Word2 Vec 计算 相 邻 时 间 窗 口 主题 之 间 的 相似 度 , 设 
定 一 定 阔 值 以 清晰 展示 主题 之 间 的 演化 路 径 ,并 通过 
Graphviz 实现 可 视 化 。 给 定 任意 窗口 主题 ,4 的 向 量 


y 1l "T or a 
表示 为 -+ Èa wt 为 主题 的 前 t 个 词 表 示 ,ww; 为 第 


i 个 词 的 词 向 量 。 如 式 (4) 所 示 , 给 定 任意 两 个 相 邻 时 
间 和 窗口 的 窗口 主题 i, 和 性 ,主题 之 间 相 似 度 的 计算 可 
以 用 余弦 相似 度 表 示 。 对 应 到 图 形 可 视 化 上 ,如 果 两 
个 相 邻 时 间 窗 口 的 主题 满足 一 定 的 相似 度 阐 值 , 则 认 
为 这 两 个 主题 之 间 存 在 一 定 的 演化 关系 ,相似 度 越 高 ， 
则 这 种 关系 就 越 强 ,在 图 形 上 的 表现 就 是 二 者 之 间 的 


sim(t,,t,’) 2 cos(t, ,t,") (4) 
本 文 在 分 析 技 术 主 题 演 化 的 时 候 ,为 清晰 地 展示 
技术 主题 的 演化 路 径 ,分 别 将 相 邻 时 间 窗 口 的 两 个 主 


题 之 间 的 相似 度 半 值 设 为 0.3.0.5 和 0.7, 对 比 不 同 阔 
值 下 技术 主题 的 演化 路 径 以 选择 最 优 阐 值 。 如 图 6 所 
示 , 当 冰 值 设 定 过 高 时 ,各 个 时 间 窗 口 的 技术 主题 之 间 
的 关系 容易 被 忽略 ,技术 主题 演化 轨迹 不 明显 ; 当 阔 值 
设 定 过 低 时 ,容易 引入 不 必要 的 联系 ,造成 技术 主题 演 
化 过 于 复杂 。 因 此 ,本 文 将 相似 度 阀 值 设 定 为 0.5, 即 
如 果 相 邻 时间 窗 口 的 两 个 主题 之 间 相 似 度 大 于 0. 5， 
则 认为 这 两 个 主题 之 间 存 在 一 定 联系 ,相似 度 越 高 , 联 
系 越 紧密 ,反映 在 演化 轨迹 中 表现 为 二 者 之 间 的 连 线 
越 粗 。“ 电 气 设备 相 关 技 术 ” 和 “汽车 生产 与 制造 相关 
技术 "的 演化 轨迹 如 图 7 所 示 。 
图 7 展示 了 “电气 设备 相关 技术 ”和 “汽车 生产 与 
制造 相关 技术 "在 各 个 时 间 窗 口 的 演化 路 径 ,每 个 窗口 
主题 都 用 一 个 圆圈 表示 ,同一 列 的 窗口 主题 属于 同一 
个 时 间 和 窗口, 从 左 至 右 五 个 时 间 和 窗口 分 别 为 2002 年 、 
2005 年 .2008 年 .2011 年 和 2014 年 ,图 中 圆圈 的 大 小 
通过 与 该 主题 关联 的 文档 数量 来 计算 ,圆圈 越 大 表明 
该 技术 主题 越 热门 ` 越 重要 。 如 图 7 所 示 ， 汽 车 生产 
与 制造 相关 技术 "共有 映射 到 21 个 窗口 主题 中 ,5 个 时 
间 窗 口 分 别 包含 窗口 主题 5 个 5 个 4 个 3 个 和 4 个 ， 
“电气 设备 相关 技术 ” 共 映 射 到 30 个 窗口 主题 中 ,五 个 
时 间 窗 口 分 别 包 含 窗 口 主题 5 个 .6 个 3 个 7 个 和 9 
个 。 本 文 根 据 主题 模型 和 TextRank 名 词 短 语 抽取 结 
果 , 并 结合 相关 专利 的 摘要 记录 ,提取 与 该 动态 主题 相 
关 的 窗口 主题 释义 如 表 3 所 示 。 

本 文 将 窗口 主题 的 演化 模式 分 为 新 生 、 扩 展 、 融 
合 、 连 续 和 衰退 五 种 模式 ”。 新 生 模 式 表示 当前 主题 
的 前 一 时 间 窗 口 不 存在 与 当前 主题 有 演化 关系 的 主 
题 ,如 图 7(1) 电气 设备 相关 技术 "演化 轨迹 中 的 " 半 
导体 /电阻 器 等 电气 器 件 "， 电 数字 处 理 技术 ”等 ,以 
及 图 7(2) 所 示 的 “织物 纤维 涂料 等 材料 技术 ”2008 
年 的 “橡胶 /轮胎 技术 ”2014 年 的 “橡胶 /轮胎 技术 "三 
个 窗口 主题 。 扩 展 模式 表示 当前 主题 与 下 一 时 间 窗 口 
的 多 个 主题 之 间 存 在 演化 关系 ,图 7 中 存在 多 个 主题 
具有 扩展 模式 ,比如 “汽车 生产 与 制造 相关 技术 ”演化 
轨迹 中 2011 年 窗口 主题 “发 动机 /动力 驱动 技术 ”扩展 
为 2014 年 “电动 汽车 动力 及 控制 技术 ”和 “发 电 / 涡 轮 
机 技术 ”两 个 窗口 主题 ,表明 这 儿 个 技术 之 间 有 着 密切 
地 联系 , “电气 设备 相关 技术 ”演化 轨迹 中 2008 年 的 
“电气 元 件 ” 技 术 扩 展 为 2011 年 的 “太阳 能 电池 ” 技 
术 “ 线 路 连接 器 "技术 等 。 融 合 模式 表示 当前 主题 由 
前 一 时 间 窗 口 多 个 主题 演化 而 来 ,图 7 中 存在 多 个 主 
题 具 有 融合 模式 ,比如 在 "汽车 生产 与 制造 相关 技术 ” 
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(2)“ 汽 车 生产 与 制造 相关 技术 ”演化 轨迹 ， 阐 值 从 左 到 右 分 别 为 0.3、0.5、0.7 
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( 续 表 3) 
窗口 主题 释义 窗口 主题 释义 
2002_102 电动 机 技术 2011_98 发 动机 /动力 驱动 技术 
2002 21 电磁 信号 /存储 技术 2011_87 动力 控制 /汽车 辅助 技术 
2005_52 磁性 材料 /设备 及 磁性 致 动 器 技术 2011_57 磁性 材料 / 磁 动力 技术 
2005.07 光盘 驱动 技术 2014_84 电动 汽车 动力 及 控制 技术 
2005_59 打印 等 设备 输送 控制 技术 2014 107 橡胶 /轮胎 技术 
2005_112 织物 .纤维 涂料 等 材料 技术 2014 60 磁性 材料 及 磁 装置 
2005 95 发 动机 驱动 及 动力 传输 .控制 技术 2014 86 发 电 / 涡 轮机 技术 
2008 69 磁 材 料 /动力 技术 
的 演化 轨迹 中 ,2014 年 窗口 主题 “电动 汽车 动力 及 控 ” “动力 驱动 /传输 技术 ”和 “电力 装置 及 汽车 控制 技术 ” 


制 技术 ”主要 由 2011 窗口 主题 “发 动机 /动力 驱动 技 
术 ” 和 “动力 控制 /汽车 辅助 技术 ”两 个 窗口 主题 融合 
演化 而 来 ,在 “电气 设备 相关 技术 ”演化 轨迹 中 ,2011 
年 的 “太阳 能 电池 "技术 是 由 2008 年 的 “电气 元 件 " 技 
术 和 "半导体 器 件 "技术 两 个 窗口 主题 融合 演化 而 来 。 
过 线 供 式 表示 下 一 时 间 窗 口 的 主体 中 存在 且 仅 存在 一 
人 EB 是 与 当前 主题 题 存 在 演化 关系 ,如 图 7(1) 所 示 的 
2662 年 窗口 主题 “光盘 存储 /控制 设备 技术 "与 2005 
Z i 光盘 驱动 技术 ”之 间 就 是 连续 模式 ,图 7 
(2 cs t 2011 年 窗口 主题 “太阳 能 电池 技术 ”和 
2614 4 年 窗口 主题 “太阳 能 电池 技术 "也 属于 连续 模式 。 
WERKE MME T— 时 间 窗 口 的 所 有 主题 都 
不 答 在 演化 关系 ,如 图 7(1) 所 示 的 窗口 主题 "光盘 驱 
SIER” “织物. 纤维 涂料 等 材料 技术 ”和 “橡胶 / 论 
HIR” o 

CRIE T 所 示 的 演化 轨迹 ,可 以 分 别提 取出 “电气 
ENR” 和 “汽车 生产 与 制造 相关 技术 ”的 核心 
演 向 路 径 , 如 “电气 设备 相关 技术 ”中 “半导体 器 件 ”、 
“太阳 能 电池 ”、“ 医 疗 设备 ”等 核心 演化 路 径 ,“ 汽 车 生 
产 与 制造 相关 技术 ”中 “电动 汽车 动力 及 控制 相关 技 
术 ”“ 磁 性 材料 及 磁 装 置 相关 技术 ” “发 电 /涡轮 机 相 
关 技 术 ” 等 核心 演化 路 径 。 以 “汽车 生产 与 制造 相关 
技术 ”中 三 个 核心 演化 路 径 为 例 :@D “电动 汽车 动力 及 
控制 相关 技术 ”, 演 化 路 径 如 图 8(1) 所 示 , “电磁 技术 ” 
和 “电动 机 技术 "通过 融合 模式 演化 为 “电磁 致 动 器 技 
术 ”,“ 电 动机 技术 ”与 “驱动 /动力 传输 技术 "通过 融合 
模式 演化 为 “发 动机 驱动 及 动力 传输 .控制 技术 ” ,到 
了 2008 年 ,“ 发 动机 驱动 及 动力 传输 .控制 技 术 ” 又 通 
过 扩展 模式 演化 为 “动力 驱动 /传输 技术 ”和 “电力 装 
置 及 汽车 控制 技术 ”,“ 磁 性 材料 /设备 及 磁性 致 动 器 
技术 ” 则 通过 连续 模式 演化 为 “ 磁 材 料 /动力 技术 ” ,之 
后 ,“ 磁 材料 /动力 技术 ”和 “动力 驱动 /传输 技术 ”以 及 
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分 别 通过 融合 模式 演化 为 “发 动机 /动力 驱动 技术 ”以 
及 “动力 控制 /汽车 辅助 技术 ”, 最 后 这 两 个 技术 通过 
融合 模式 演化 为 “电动 汽车 动力 及 控制 相关 技术 ”;@@ 
“位 性 材料 及 人 磁 装 置 相关 技术 ”演化 路 径 如 图 8 (2) Br 
示 ,“ 电 磁 技 术 ” 和 “电动 机 技术 "通过 融合 模式 演化 为 
"BLUE SC SI d DUC. ,然后 一 直通 过 连续 模式 演化 为 
“磁性 材料 及 磁 装 置 技术 ”;@@ 发电 /涡轮 机 相关 技 
术 ”, 演 化 路 径 如 图 8(3) 所 示 , “电磁 技术 ”和 “电动 机 
技术 "通过 融合 模式 演化 为 “电磁 致 动 器 技术” ,之 后 
通过 连续 模式 演化 为 “人 磁 材 料 / 动 力 技术 ”,“ 了 驱动/ 动 
力 传输 技术 ”通过 连续 模式 演化 为 “动力 驱动 /传输 技 
R” ,之 后 与 “ 磁 材 料 / 动 力 技术 "通过 融合 模式 演化 为 
“发 动机 /动力 驱动 技术 ” ,最 后 通过 连续 模式 演化 为 
“发 电 / 涡 轮机 技术 ”。 虽 然 本 文 将 这 三 个 核心 技术 的 
演化 轨迹 分 别 抽取 出 来 分 析 , 但 三 者 的 演化 轨迹 存在 
着 很 多 交叉 重合 的 现象 ,表明 这 三 个 核心 技术 之 间 仍 
然 存 在 着 紧密 的 联系 。 在 这 三 个 核心 技术 演化 轨迹 之 
外 的 其 他 技术 则 较为 孤立 ,如 2014_107 和 2008_99 表 
示 的 橡胶 技术 (汽车 轮胎 的 橡胶 材料 ) ,2005_112 表示 
的 织物 ,涂料 等 功能 材料 技术 等 。 这 些 技术 在 动态 主 
题 D64 所 表示 的 汽车 动力 与 制造 相关 技术 中 处 于 非 核 
心 的 位 置 ,而 且 很 少 与 其 他 技术 产生 联系 ,演化 轨迹 不 
明显 。 


5 总 结 与 展望 


本 文 从 文本 语义 的 角度 出 发 ,提出 基于 NMF 改进 
的 动态 非 负 矩阵 分 解 模型 ,对 专利 文本 进行 动态 主题 
建 模 ,以 实现 对 技术 主题 的 动态 演变 分 析 , 主要 分 为 五 
个 步骤 :通过 Word2 Vec 训练 词 向 量 获取 主题 词 的 分 
布 表示 ,用 于 主题 模型 中 主题 个 数 的 确定 以 及 主题 
之 间 相 似 度 的 计算 ;@) 通 过 改进 的 动态 非 负 抢 阵 分 解 
对 专利 文本 进行 动态 主题 建 模 ， 获 取 动 态 主题 及 相对 
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(2) 磁性 材料 及 磁 装 置 相关 技术 演化 路 径 
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(3) 发 电 / 涡 轮机 相关 技术 演化 路 径 


8 三 个 核心 技术 的 演化 路 径 


应 的 窗口 主题 ;@) 利 用 TextRank 抽取 名 词 短语 对 抽取 
的 主题 进行 标注 ,增强 主题 的 可 解释 性 ;9 通过 词 向 量 
计算 主题 之 间 的 演化 轨迹 ,并 通过 Graphviz 可 视 化 展 
示 ;@ 选 取 2002 年 .2005 年 .2008 年 .2011 年 和 2014 
年 五 年 的 五 方 专利 数据 进行 实证 分 析 。 

本 文 提 出 的 方法 能 够 充分 利用 专利 的 文本 内 容 信 
息 ,自动 识别 专利 文本 中 列 含 的 技术 主题 ,并 识别 其 演 
化 路 径 。 本 文 仍 存在 一 些 不 足 之 处 最 待 进一步 研究 : 
中 本 文通 过 先 抽 取 主 题 然 后 再 利用 名 词 短语 进行 标注 
的 方式 增强 主题 的 可 解释 性 ,虽然 达到 了 一 定 的 效果 ， 
但 处 理 步 又 较为 繁琐 ,研究 如 何 直接 生成 主题 短语 的 


主题 模型 成 为 笔者 未 来 的 研究 重点 ;@ 本 文 在 进行 主 
题 建 模 的 时 候 , 只 用 到 了 文本 信息 ,而 忽略 了 专利 分 类 
等 有 价值 的 信息 ,因此 如 何 将 专利 分 类 等 信息 融入 主 
题 模 型 以 提升 主题 模型 的 精度 和 效果 也 需要 进一步 研 
究 。 
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«Abstract. [ Purpose/significance] Analyzing the evolution of technological topic makes it possible for us to track 


thEaevelopment of technology ，which is essential for improving innovation activity and forecasting development trends of 
tedfffiology. However, to our knowledge, scholars pay less attention to the semantic perspective of technological topic. 
Therefore , this paper intends to analyze the evolution of technological topic from the perspective of semantic. [ Method/ 
process | This paper proposed a dynamic topic model based on non -negative matrix factorization, and labeled the technolo- 
gy topics with noun phrases extracted by TextRank algorithm , which enhances the interpretability. Then, the study compu- 
ted and visualized the evolutionary trajectory of technological topics with word embedding. [ Result/conclusion | This pa- 
per uses five countries" (China, America, Japan, South Korea, Europe) patent data in 2002, 2005, 2008, 2011 and 
2014 to test our model. During the course of the experiment , our method extracted evolutionary trajectories of 65 technical 
topics, which verified the effectiveness of our method. 
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